联合学习可以使资源受限的边缘计算设备(例如手机和物联网设备)学习一个共享模型以进行预测,同时保持培训数据本地。这种分散的火车模型方法可提供隐私,安全,监管和经济利益。在这项工作中,我们关注联合学习的统计挑战,当时本地数据是非IID的。我们首先表明,联合学习的准确性大大降低了,对于接受高度偏斜的非IID数据训练的神经网络,最多可降低55%,其中每个客户端设备仅在一类数据上训练。我们进一步表明,可以通过重量差异来解释这种准确性的降低,这可以通过每个设备上类和种群分布的类别的分布之间的地球搬运工距离(EMD)来量化。作为解决方案,我们提出了一种策略,通过创建一小部分数据来改善对非IID数据的培训,该数据在所有边缘设备之间全球共享。实验表明,CIFAR-10数据集只有5%全球共享数据,可以提高精度30%。
translated by 谷歌翻译
学习在无人驾驶汽车(UAV)捕获的图像中检测物体(例如人类)通常会遭受无人机对物体的位置造成的巨大变化。此外,现有的基于无人机的基准数据集不提供足够的数据集元数据,这对于精确的模型诊断至关重要,并且学习功能不变。在本文中,我们介绍了大天使,这是第一个基于无人机的对象检测数据集,该数据集由具有相似想象条件以及无人机位置以及对象姿势元数据捕获的真实和合成子集组成。一系列实验经过精心设计,使用最先进的对象检测器设计,以证明在模型评估过程中利用元数据的好处。此外,还提供了几种涉及模型微调过程中涉及真实和合成数据的关键见解。最后,我们讨论了有关大天使的优势,局限性和未来方向,以突出其对更广泛的机器学习社区的独特价值。
translated by 谷歌翻译
文本的风格分析是研究领域的关键任务,从作者归因到法医分析和人格分析。现有的风格分析方法受到主题影响力,大量作者缺乏可区分性以及对大量不同数据的要求所困扰的。在本文中,确定了这些问题的来源,以及对解决方案的认知观点的必要性。引入了一种新型功能表示,称为基于轨迹的样式估计(TRASE),以支持此目的。在跨域场景中拥有超过27,000名作者和140万样本的作者归因实验,导致90%的归因精度表明该特征表示对这种负面影响不受影响,并且是对风格分析的出色候选者。最后,使用物理人类特征(如年龄)对TRASE进行定性分析,以验证其在捕获认知特征方面的主张。
translated by 谷歌翻译
小规模过程的建模是气候模型中的主要误差来源,阻碍了低成本模型的准确性,必须通过参数化近似此类过程。红噪声对于许多操作参数化方案至关重要,有助于建模时间相关性。我们通过将随机性的已知好处与机器学习相结合,展示了如何基于红噪声的成功。这是在概率框架内使用物理信息的复发性神经网络完成的。当应用于Lorenz 96大气模拟时,我们的模型具有竞争力,通常优于定制基线和现有的概率机器学习方法(GAN)。这是由于其与标准一阶自回旋方案相比,它具有较高的时间模式的能力。这也是看不见的场景。我们评估了文献中的许多指标,还讨论了使用持有可能性的概率度量的好处。
translated by 谷歌翻译